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摘要 : 


【 目的 】 自 动 抽 取 微 博 话题 信息 ， 从 主题 及 观点 两 个 维度 整合 揭示 微 博 话题 内 容 与 观点 。[ 方法 ] 将 主题 


模型 应 用 于 微 博 话题 中 , 结合 改进 的 TF-IDF 算法 , 构建 主题 特征 词 向 量 ; 基于 特征 词 向 量 中 特征 词 之 间 的 相关 
度 , 自动 抽取 主题 词汇 链 ; 引入 情感 词典 , 抽取 主题 观点 , 无 监督 构建 “主题 + 观点 ” 词 条 。[ 结果 】 使 用 爬虫 工具 
抽取 2014 年 6 月 -2015 年 6 月 期 间 4 个 特定 热门 微 博 话题 事件 的 微 博 共 24 598 条 , 抽取 “主题 + 观点 ” 词 条 , 平均 
准确 率 达 到 80.3%， 召 回 率 为 76.7%。 [ 局 限 ] 数 据 量 依旧 较 小 , 主题 模型 对 于 微 博 短文 本 的 特征 抽取 效果 仍 需 提 
高 。[ 结论 】 本 文 算法 可 以 准确 且 有 效 地 描述 话题 事件 内 容 及 其 相应 观点 。 


关键 词 : 文本 挖掘 词 条 抽取 主题 模型 
分 类 号 : TP391 G350 


微 博 话题 


1 引 言 


随 着 互联 网 的 普及 与 发 展 , 博客 、 微 博 和 社交 网 
络 等 网 络 平台 成 为 网 民 获 取信 息 的 重要 来 源 。 截 至 
2015 年 6 月 , 中 国 网 民 规模 达 6.68 亿 口 ， 微 博 用 户 规 
模 为 2.49 亿 , 其 中 有 64.6% 的 用 户 参 与 过 热门 话题 讨 
论 外 。 由 此 可 见 , 微 博 社区 已 成 为 重要 的 与 情 传播 平 
台 , 其 中 微 博 话题 已 成 为 用 户 针 对 话题 事件 获取 信 
息 、 表 达观 点 的 重要 渠道 。 但 是 由 于 微 博 话题 中 信息 
鱼龙混杂 以 及 微 博 自身 短文 本 、 结 构 松 散 的 特性 ， 
此 人 迫切 需要 一 种 合适 的 组 织 模式 或 框架 , 帮助 用 户 在 
言 息 过 载 时 迅速 抽取 与 表达 微 博 话题 信息 ,多 维度 展 
现 舆 情 内 容 。 

话题 信息 的 抽取 与 表达 可 以 追溯 到 话题 识别 与 跟 
踪 (Topic Detection and Tracking，TDT) 的 话题 检测 阶 
段 ， 话题 检测 的 主要 任务 所 是 检测 和 组 织 话题 ,通常 
用 于 应 对 信息 过 载 问题 。 近 年 来 国内 外 关于 话题 信息 


抽取 方法 的 研究 主要 从 数据 挖掘 方法 与 NLP 文本 挖 
气 方 法 两 方面 切 和 人。 数据 挖掘 方法 主要 从 结构 化 、 半 
结构 化 数据 中 抽取 信息 。Becker 等 外 利用 Twitter 一 段 
时 间 内 的 历史 数据 , 通过 聚 类 算法 获得 事件 簇 , 提取 
事件 秘 特 征 , 并 利用 支持 向 量 机 模型 在 线 识别 新 文 
本 。Popescu 等 中 针对 某 一 类 特定 产品 的 评论 信息 , 通 
过 计算 评论 中 的 名 词 与 该 类 产品 表征 词 间 的 点 互信 息 
(PMI), 使 用 贝 叶 斯 分 类 来 提取 产品 特征 。 NLP 文本 挖 
掘 方法 从 非 结构 化 的 开放 文本 中 发 现 新 知识 ,并 将 其 
转换 为 可 理解 的 有 用 信息 。Rttier 等 四 针对 Twitter 自 
身 特性 , 提出 开放 领域 事件 抽取 方法 , 利用 潜在 变 分 
模型 发 现 重要 的 事件 类 别 。 然 而 ， 由 于 微 博 话题 文本 
相 较 于 传统 文本 内 容 简短 、 结 构 松 散 、 数 据 稀 琉 性 严 
重 ， 因 此 传统 的 文本 抽取 方法 并 不 适用 于 微 博 话题 
文本 。 

随 着 主题 模型 中 的 提出 , 为 了 解决 上 述 方法 存在 
的 问题 , 越 来 越 多 的 学 者 将 LDA 模型 引入 到 话题 抽取 
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与 表达 的 研究 中 。LDA 模型 是 三 层 贝 叶 斯 分 布 的 概率 
模型 ,将 话题 中 隐 含 主题 信息 通过 特征 词 概率 分 布 来 
表示 。 为 进一步 提升 模型 适用 性 与 话题 抽取 效果 ,有 
学 者 在 传统 LDA 模型 基础 上 引入 情感 因素 局、 话题 热 
度 外 作者 信息 中 微 博 间 用 户 关系 中 等 外 部 因素 , 进 
行 微 博 短文 本 研究 , 并 取得 良好 效果 。 目 前 基于 主题 
模型 的 话题 信息 抽取 与 表达 主要 从 话题 标签 抽取 站、 
话题 线索 化 趾 、 话 题 演 化 "等 方面 进行 研究 。 寇 宛 秋 
等 ?提出 一 种 基于 种 子 词 的 话题 标签 抽取 方法 ,对话 
题 特征 词 权重 重 排序 ,抽取 种 子 词 , 采用 Bootstrapping 
思想 ,生成 关键 短语 集合 ,最 后 泛 化 选择 话题 标签 ， 
表述 话题 内 容 。Ramage 等 针对 Twitter 中 博文 的 内 
容 特 征 ,， 利 用 标签 LDA(Labeled LDA) 模 型 将 博文 内 
容 有 映射 到 4 个 维度 , 抽取 标签 ,反映 话题 信息 .Darling 
等 05 提 出 PoSLDA 模型 , 在 LDA 模型 和 HMMLDA 
模型 的 基础 上 进一步 扩展 , 将 文档 中 的 词汇 分 为 三 个 
类 别 ( 形 容 词 、 动 词 和 名 词 ) 表 示 话 题 涉 及 的 事物 、 动 
作 和 描述 信息 。 闫 泽 华 0 在 LDA 模型 基础 上 , 调整 单 
词 权 重 , 考虑 背景 词 与 N 元 短语 的 因素 , 抽取 新 闻 线 
索 标 签 。 这 些 研究 都 是 从 话题 内 容 方面 抽取 话题 信息 ， 
并 没有 考虑 引入 观点 维度 改善 微 博 话题 信息 抽取 与 表 
达 ， 更 加 全 面 展现 话题 信息 。 

为 了 进一步 提升 话题 信息 抽取 与 表达 效果 ， 本文 
设计 面向 微 博 话题 的 “主题 + 观点 ”表达 模型 ， 并 提出 
一 种 无 监督 的 “主题 + 观点 ” 词 条 抽取 算法 。 实验 结果 表 
明 本 文 算法 在 不 同 微 博 话题 中 均 取得 较 好 的 效果 ,从 
多 维度 反映 微 博 话题 中 各 主题 信息 及 主题 观点 。 


2 面向 微 博 话题 的 “主题 + 观点 ”" 词 条 模型 


微 博 话题 的 微 博 语 义 信息 可 以 分 为 两 类 : 话题 事 
件 的 客观 描述 信息 与 主观 观点 信息 。 本 文 综合 微 博 话 
题 自身 特性 , 提出 面向 微 博 话题 的 “主题 + 观点 ” 词 条 
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定义 2 主题 观点 Viewpoint{j,} 是 代表 主题 z; 观 
点 信息 的 观点 词 , 反映 网 民 对 主题 事件 的 观点 意见 。 

定义 3“ 主 题 + 观 点 ” 词 条 Entry(n) 表示 从 主题 内 
容 与 主题 观点 两 个 维度 揭示 话题 信息 ， 由 主题 词汇 链 
Lexicalchain{k,} 与 主题 观点 Viewpoint{j,} 构成 , 模 
型 结构 如 下 所 示 : 


Entry(n) = Lexicalchain{k,}+ Viewpoint{jn} n=1,2,…,K (1) 


其 中 , 主题 词汇 链 Lexicalchain{k,} 表示 第 n 个 主 
题 z, 的 主题 词汇 链 ， 主题 观点 Viewpoint{j,} 表示 对 
应 主题 信息 的 观点 信息 , K 表示 主题 数目 。 


3 无 监督 的 “主题 + 观点 * 词 条 抽取 算法 


当前 针对 话题 信息 抽取 的 普遍 解决 思路 是 有 监 
督 、 半 监督 或 无 监督 的 文本 挖 据 方法 。 有 监督 方法 仅 
具 理 论 价值 ， 因 为 实际 应 用 中 难以 拟 出 合适 的 训练 集 
构建 分 类 器 。 本 体 作为 一 种 有 效 的 形式 语义 模型 和 知 
识 表 示 形 式 ， 近 年 来 在 话题 抽取 方面 也 有 一 定 应 用 ， 
但 构建 话题 相关 本 体 往往 采用 半 监 督 方 式 , 需要 引入 
大 量 领域 信息 ,准确 度 不 高 ,多 为 原型 系统 ， 未 能 
向 应 用 呈 。 然 而 无 监督 探测 算法 则 兼 具 较 少 先 验 需求 
与 较 强 泛 化 能 力 , 更 符合 话题 抽取 的 实际 情境 。 

本 文 提出 一 种 无 监督 的 微 博 话题 信息 抽取 算法 ， 
主要 分 为 以 下 三 步 : 

(1) 根据 主题 特征 词 在 话题 中 不 同 主题 间 代 表 度 
的 差异 ,调整 特征 词 权重 ,构建 主题 特征 词 向 量 ; 

(2) 在 特征 词 向 量 的 基础 上 , 依照 特征 词 之 间 相 
关 度 , 无 监督 生成 主题 词汇 链表 征 主题 内 容 信息 ; 

(3) 引入 情感 词典 ， 构 建 观点 词 集 合 ， 结 合 步 
又 (2) 中 主题 词汇 链 与 观点 词 的 观点 强度 ,自动 抽取 主 
题 观 点 , 用 以 描 擎 主题 事件 观点 倾向 。 最 终 主题 词汇 
链 与 主题 观点 构成 “主题 + 观点 " 词 条 , 将 微 博 话 题 信 


的 话题 表达 模型 “主题 + 观点 ” 词 条 由 主题 词汇 链 与 主 
题 观点 两 部 分 组 成 , 主题 词汇 链 以 词汇 链 的 形式 表征 
微 博 话题 中 各 主题 事件 内 容 信 息 ,主题 观点 反映 用 户 
对 主题 事件 的 观点 倾向 。 

定义 1 主题 词汇 链 Lexicalchain{k ,} 由 一 组 具有 
代表 性 的 单词 或 者 短语 组 成 , 根据 特征 词 集合 中 词汇 
的 相关 性 cor(wi,wj) 自动 构建 生成 , 用 以 表征 微 博 话 
题 中 主题 事件 的 内 容 信息 。 


息 从 文本 维度 降 维 表示 ， 从 主题 事件 内 容 与 观点 的 维 
度 描 述 话题 信息 。 
3.1 基于 改进 TF-IDF 算法 的 主题 特征 词 向 量 构建 
在 LDA 主题 模型 中 ,通过 降 维 将 话题 信息 从 海 
量 文本 空间 变换 到 主题 空间 ,将 一 组 词汇 的 概率 分 
布 表示 话题 中 一 个 主题 (Topic)， 即 通过 一 组 特征 词 
描述 话题 中 一 个 主题 事件 。 假 设 话题 文本 集合 
D={di,dz,dn}， 其 中 V = {Wi1, W2, Wn} 为 词汇 集 
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合 , 潜在 主题 事件 集合 为 Z = {z1,z,,…z,}， 主题 建 模 
后 得 到 主题 - 词 概率 分 布 9 与 文档 主题 概率 分 布 p ， 
其 中 p(wjlzx) 表示 在 主题 z 下 词汇 wj 对 主题 的 贡献 
度 ， 即 wj 属于 主题 zx 的 概率 。 

LDA 模型 假设 每 个 词汇 权重 相同 , 但 实际 上 每 个 
词汇 在 各 个 主题 中 代表 度 并 不 相同 。 传 统 词汇 代表 度 
的 计算 通常 使 用 TF-IDF 算法 , 但 TF-IDF 存在 无 法 有 
效 识别 高 频 关 键 词 与 无 法 筛选 均匀 分 布 的 关键 词 的 问 
题 ， 本 文 借鉴 文献 [12] 的 思想 , 在 传统 TF-IDF 算法 基 
础 上 引入 覆盖 度 与 特征 度 , 使 主题 特征 词 与 背景 词 区 
分 出 来 。 

和 窗 盖 度 coveragei ; 表示 词汇 在 文档 集合 上 的 覆盖 
程度 , 覆盖 度 高 的 词语 在 语 料 中 更 具有 代表 性 , 覆盖 
度 用 包含 词语 的 全 部 文档 数 Ni 除 以 总 文档 数 N 来 表 
示 , 计算 公式 如 下 : 


N; 
coverageij = 和 (2) 


特征 度 characteristic; 反映 词汇 所 在 文本 在 某 个 
主题 中 代表 程度 。p(zi | dv) 为 主题 -文本 概率 分 布 , 代 
表 词 汇 wi 所 在 的 文本 属于 主题 z; 的 概率 , 为 包含 词 
汇 wi 的 微 博 d, 代表 主题 z; 的 概率 , 计算 公式 如 下 : 


n 
2p(zi1dn) 
characteristic; = El (3) 


结合 改进 TF-IDF 算法 ,其 表达 式 如 下 : 


num | 


3 W i 
weighti ; = p(Wi |2;)x io sxcoverage; ; x characteristici (4) 


| Woum 

其 中 ，W, 表示 文档 词汇 总 数 ，Wi, 表示 w; 的 

词 频数 量 。 可见, 词汇 在 文档 中 出 现 次 数 越 多 , 包含 词 

汇 文档 数目 越 少 ,代表 度 越 高 ,同一 主题 中 履 盖 度 越 

大 , 特征 度 越 高 的 特征 词 更 能 代表 主题 语义 。 本 文通 

过 改进 的 TF-IDF 算法 计算 词汇 权重 后 , 按 权 重 

weighti ;数值 从 大 到 小 排序 ， 选取 前 n 个 特征 词 , 组 成 

主题 特征 词 向 量 , 则 调整 后 主题 z, 的 特征 词 问 量 表示 
如 下 : 


zh ={(wi, weightl ;),(w,, weight2 ;),*…, (Wn, weightn ;)} 


(5) 


wwWnEV 
基础 LDA 模型 与 权重 计算 结果 对 比如 图 1 所 示 ， 
上 方 为 LDA 主题 建 模 结 果 , 下 方 为 权重 计算 后 的 主题 
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Topic 1 Topic 3 
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图 1 基础 LDA 模型 与 权重 计算 结果 对 比 


3.2 ”基于 特征 词 向 量 的 主题 词汇 链 生 成 

词语 常常 围绕 特定 主题 描述 话题 信息 , 这 些 围绕 
某 个 主题 , 在 语义 上 相互 联系 的 词语 集合 , 称 为 词汇 
链 。 本 文 用 特征 词 之 间 相 关 度 的 大 小 反映 不 同 词汇 间 
语义 关联 的 强 弱 。 常用 的 词汇 间 相 关 度 计算 公式 如 下 : 


Cc(Wi, wj) 


c(wi)xc(wij) 


(6) 


cor(Wi, Wj)= 
C(Wi)+c(Wi;)—c(Wi, Wij) NxN 


其 中 ，c(wi,wj) 为 wi 与 wj 在 同一 窗 体 中 出 现 的 
频率 ，c(wi) ，c(wj) 为 各 自 的 词 频 ，N 为 全 部 文档 数 
目 。 由 于 在 计算 中 可 能 得 到 词汇 为 负 相 关 , 考虑 到 
c(wi),c(wj) 相 比 于 NN 通常 较 小 ,， 因此 公式 (6) 中 后 半 
部 分 可 以 忽略 。 传 统 相关 度 计算 中 忽视 了 wi 与 wj; 自 
身 权重 的 影响 ， 当 权重 较 高 的 特征 词 间 相 关 度 高 时 ， 
其 组 成 短语 更 易于 反映 主题 信息 。 由 此 本 文 相关 度 计 
算 公 式 改 进 为 如 公式 (7) 所 示 , 在 原 相关 度 计 算 公 式 基 
础 上 引入 特征 词 权重 weight; ;。 


C(Wi, wj) 


cor(Wwi, wi) = >》 weighti ;( (7) 


cCwi)+c(wi) 一 cCCwi wj) 
其 中 ，c(wi,wj) 在 本 文中 取 词 汇 在 同一 微 博 中 共 
现 次 数 ，c(wi) ，c(wj) 为 wi 与 wj 在 语 料 文本 中 出 现 


次 数 。 可 见 , 车 相关 性 为 正 值 ， 则 说 明 两 词 相关 , 正 值 
越 大 , 则 相关 度 越 高 。 当 两 个 权重 高 的 特征 词 的 共 现 
概率 高 时 ， 则 词汇 间 相 关 度 变 大 , 其 组 成 短语 更 能 准 
确 反 映 话题 语义 信息 。 
文献 [19] 认 为 ,新闻 领域 通常 使 用 新 闻 六 要 素来 

描述 一 个 事件 ， 即 : 内 容 (What)、 人 物 (Who)、 地 点 
(Where) 、 时 间 (When) 、 原 因 (Why) 及 如 何 (How)。 文 
献 [20] 认 为 评论 中 的 观点 持 有 者 一 般 是 由 命名 实体 ， 
提出 借助 于 命名 实体 识别 技术 来 获取 观点 持 有 者 。 本 
文 借鉴 上 述 思 想 , 认为 描述 话题 事件 的 文本 通常 包含 
名 词 词 性 的 词汇 ， 由 此 选择 特征 词 集合 中 的 名 词 词性 
的 特征 词 w? 作为 种 子 词 , 用 以 自动 生成 主题 词汇 链 。 
主题 词汇 链 Lexicalchain fki} 依据 种 子 词 w? 与 特征 词 
向 量 中 其 他 特征 词 的 相关 度 和 特征 词 的 权重 等 因素 生 
成 。 当 种 子 词 wi 与 特征 词 的 相关 度 cor(wi ,wj) 大 于 阐 
值 后 , 将 种 子 词 与 特征 词组 成 短语 P' 加 入 词汇 链 候选 
集合 P 中 , 短语 的 权重 更 新 为 词汇 的 权重 之 和 。 迭代 计 
算 后 ， 从 中 选取 权重 最 大 的 短语 P' 作为 主题 词汇 链 ， 
即 Lexicalchain{k;} = arg nax, P'(weighti ;|z=1i), 主题 
词汇 链 生 成 算法 如 下 : 

Input: 特征 词 集合 Vi ,特征 词 短 语 集合 

Output: 主题 词汇 链 Lexicalchainfk } 

DSet P=Vi; 

OFor each wi in Vi 


Calculate weighti; 
Add all w? in list; 
End for; 
(For each w? in list 
For each P' in P; 
Calculate cor(wi ,wi;) 
If cor(w? ,Wj) 三 阅 值 
Set (wi,wj) as a phrase into Pi 
End for 
End for 
(DFor each P' in P; 
Set maximum weight P' as Lexicalchain {k;} 


End for 
3.3 ”基于 情感 词典 的 主题 观点 抽取 
观点 抽取 指 利用 计算 机 技术 自动 分 析 网 络 中 带 有 
观点 信息 的 句子 或 文档 ， 从 中 提取 出 用 户 所 表达 的 观 
点 或 态度 。 话题 文 本 中 的 观点 倾向 主要 通过 观点 词 传 


A 
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递 ,观点 词 多 为 情感 词 ， 其 中 观点 词 体现 为 观点 倾向 
(讲义 、 贬 义 和 中 立 ) 与 观点 强度 两 个 维度 。 

本 文 借鉴 大 连理 工 情感 词 本 体 请 结果 , 构建 情感 
词典 ,大 连理 工 情感 词 本 体 通过 三 元 组 来 描述 ,具体 
如 下 : 


Lexicon = (B,R,E) (8) 

其 中 , B 表示 词汇 基本 信息 , R 表示 词汇 之 间 同 义 
关系 , E 代表 词汇 情感 信息 , 分 别 从 情感 分 类 、 极 性 、 
强度 三 个 维度 描述 。 通 过 候选 情感 词 与 基准 情感 词 在 
大 规模 语 料 中 点 互信 息 (PMD) 判 定 情感 强度 ,强度 分 
为 1, 3, 5, 7, 9 这 5 个 等 级 。 在 微 博文 本 中 , 越 来 越 多 
的 用 户 使 用 微 博 表情 代替 文字 信息 ,表达 个 人 观点 ， 
在 本 文 的 实验 语 料 中 , 含有 微 博 表情 的 文本 占 46.7%。 
由 此 在 大 连理 工 情感 词 本 体 的 基础 上 ,对 情感 词典 进 
行 扩充 , 加 入 微 博 常 用 表情 。 将 微 博 表情 以 [表情 内 容 ] 
的 形式 表示 ,如 “[ 鼓 掌 ]”[ 爱 你 ]”， 存 人 情感 词典 ， 以 
其 文本 内 容 代 表 表情 语义 。 经 过 处 理 , 情感 词典 共有 
单词 共 28 466 个 , 讲义 词 16074 个 , 贬义 词 12 392 个 ， 
情感 强度 参考 情感 词 本 体 , 也 分 为 1, 3, 5, 7, 9 这 5 个 
等 级 。 

参照 情感 词典 , 假设 在 主题 特征 词 向 量 中 标记 出 
m 个 观点 词 ， 当 前 主题 观点 词 向 量 表示 为 SW = 
{(swi,sweights, ),(sw,,sweights,, )…(Swm;SWeightsw )}, 
swnm 表示 观点 词 ，sweights， 为 对 应 观点 强度 。 然 而 
主题 观点 的 表达 不 仅 与 观点 强度 相关 还 与 观点 次 和 主 
题 内 容 的 紧密 程度 有 关 。 本 文采 用 主题 词汇 链 
Lexicalchain{k;} 表示 主题 事件 的 语义 信息 。 因 此 , 将 
观点 抽取 过 程 转化 为 观点 词 与 主题 词汇 链 的 相关 度 的 
计算 过 程 。 本 文 定 义 主 题 观点 的 观点 值 Qi， 其 计算 公 
式 如 下 : 


n 
Qi =sweights, x >》 cor(swi， Wi)|1sSwisSW,wjsLexicalchain{ki} 
i 


(9) 
可 见 ， 当 观点 词 观点 强度 越 大 ,同时 该 观点 词 与 
主题 内 容 相 关 度 越 高 , 则 观点 词 更 能 代表 主题 观点 。 
对 所 有 被 标注 出 的 观点 词 sw, 满足 以 下 两 种 情况 之 
一 , 则 自动 抽取 为 主题 观点 View{j,}: 
( 对 于 Vswi e Lexicalchain{ki} ，Viewpoint{j,} = 


argmax{weight,, }, ie{l,2,…n}; 
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(2) 如 果 3swi e SW 日 sw; g Lexicalchain{k;}, 使 
得 Viewpoint{j,}=argmax{Q;} ,ie{,2,.…n}。 

即 ,在 条 件 (1) 中 ,如 果 主 题词 汇 链 中 存在 情感 
词 ,选取 权重 最 大 的 特征 词 作为 主题 观点 ; 在 条 件 
(2) 中 , 选取 在 观点 词 集合 中 观点 值 最 大 的 观点 词 作 
为 主题 观点 。 


4 实验 设计 


4.1 ”实验 设置 

本 文 使 用 疏 虫 工具 抽取 2014 年 6 月 到 2015 年 6 
月 热门 微 博 话题 事件 微 博 共 24 598 条 , 其 中 关于 “成 
都 女 司机 被 打 ” 话 题 微 博 共 9 230 条 , 关于 “尼泊尔 地 
震 ” 微 博 共 6 932 条, 关于 “长 江 客轮 沉没 ”话题 共 4367 
条 ,“ 李 娜 产 女 ”话题 共 4 069 条 。 预 处 理 阶 段 , 使 用 中 
国 科 学 院 计算 技术 研究 所 汉语 分 词 系统 NLPIR2015” 
对 微 博 正 文 文本 分 词 并 进行 词性 标注 。 根 据 哈工大 停 
用 词 表 去 除 停 用 词 ， 同时 去 掉 微 博 短 链 以 及 低频 词 ， 
保留 名 词 、 动 词 、 形 容 词 作 为 候选 词 。 
4.2 ”实验 结果 

实验 设置 参数 a =50/K ，B=0.01， 吉 布 斯 采样 
的 迭代 次 数 为 1 000 次 , 其 中 K 为 设置 的 话题 数量 。 
为 了 分 析 话 题 数 量 的 设置 对 于 LDA 话题 建 模 的 影响 ， 
采用 Perplexity 指标 对 实验 结果 进行 衡量 。Perplexity 
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是 度量 话题 模型 性 能 的 常用 指标 和 衡量 方法 ,表示 预 
测 数据 时 的 不 确定 度 , 取 值 越 小 表示 性 能 越 好 , 计算 
公式 如 下 : 


(10) 


> Inp(wam) 

Perplexity(W) = exp | 
其 中 ,W 为 测试 集 ， wm 是 测试 集中 可 观测 到 的 词 

语 ，Nn 为 词语 数 。 逐 步 递增 话题 数 K 进行 实验 , 按照 
公式 (10) 计 算 不 同 话题 值 下 LDA 话题 的 混 林 度 。 随 着 
话题 数 逐 渐 增 加 , Perplexity 值 不 断 降低 ， 如 图 2 所 示 : 
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图 2 Perplexity 分 布 图 
本 文 最 终 选 取 K=50， 实 验 结果 如 表 1 所 示 : 


表 1 “主题 + 观点 ” 词 条 抽取 结 


事件 名 称 权重 计算 结 主题 词汇 链 ”主题 观点 “主题 + 观点 ” 词 条 
李娜 公布 顺利 英文 名 小 脚 Alisa 喜讯 孩子 发 布 英文 李娜 公布 喜讯 李娜 公布 + 喜讯 
李娜 产 女 李娜 产 女 祝福 人 生 哈哈 祝 满 贯 快乐 手 成 长 李娜 产 女 祝福 李娜 产 女 + 祝福 


李娜 恭喜 成 为 妈妈 中 国 [鼓掌 ] 曝光 姜山 冠军 升级 李娜 成 为 妈妈 ” 恭喜 李娜 成 为 妈妈 + 恭喜 
女 司 机 变 道 成 都 视频 记录 车 行车 殴打 遭 曝光 女 司 机 变 道 殴打 女 司机 变 道 + 殴 打 
成 都 司机 被 打 ” 女 司机 惨遭 暴打 分 析 加 成 都 [ 笑 cry] 男 司机 评论 事 女 司机 暴打 暴打 女 司机 暴打 + 加 
女 司机 慈善 做 母亲 视频 机 构 [ 笑 cry] 事 女儿 搞 女 司 机 慈善 [ 笑 cry] 女 司机 慈善 +[ 筑 cry] 
中 国 游客 回国 尼泊尔 地 震 [ 心 ] 娣 爱 想 愿 中 国 游客 回国 [ 心 ] 中 国 游客 回国 +[ 心 ] 
尼泊尔 地 震 尼泊尔 地 震 [祈祷 ] 中 国 国际 [ 心 ] 汶川 加 油 力量 [位 置 ] ”尼泊尔 地 震 [祈祷 ] ”尼泊尔 地 震 +[ 祈 祷 ] 
西藏 受灾 自治 区 捐赠 救灾 影响 受 波及 房屋 前 往 西藏 受灾 捐赠 西藏 受灾 + 捐赠 
救援 队 救援 搜救 队员 中 国 国际 应 急 帐篷 小 时 废墟 救援 队 搜 救 救援 救援 队 搜 救 + 救援 
， ,长 江 愿 平安 客船 沉没 乘客 入 公司 星 沉 长 江 客轮 平安 长 江 客船 + 平安 
长 江 客 船 沉没 SE | es Sk ; 
长 江 倾覆 客轮 安息 生命 加 油 珍惜 生 长 爱 长 江 客轮 倾覆 长 江 客 轮 + 倾覆 


GD http: /ictclas.nlpir.org/. 
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对 于 某 一 微 博 话题 内 容 , 往往 含有 多 个 不 同 主 
题 内 容 即 子 话题 。 由 实验 结果 可 以 看 出 LDA 模型 在 
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在 “成 都 女 司机 被 打 ” 事 件 中 , 事件 开始 女 司机 被 打 的 
观点 为 “加”， 表达 对 打 人 事件 的 遗 责 ， 经 过 事件 发 展 ， 


主题 挖掘 领域 中 具有 良好 的 效果 ,主题 间 具有 较 高 
独立 性 ,主题 特征 词 具 有 较 高 的 概括 性 ， 充 分 反映 
出 不 同 主题 间 的 文本 内 容 ， 有效 去 除 垃圾 微 博 对 话 
题 事件 的 影响 ,例如 “尼泊尔 地 震 " 事 件 中 , 分 别 反 映 
出 “中 国旅 客 回国 "、“ 西 藏 地 区 受灾 ”、“ 救 援 队 救 援 ” 
等 主题 信息 ,将 围绕 微 博 话题 的 不 同 主题 信息 有 效 
区 分 开 来 。 

在 特征 词 集合 构建 中 , 根据 改进 的 TF-IDF 算法 
提升 话题 特征 词 的 权重 ,降低 无 关 的 背景 词 的 权重 ， 
突出 主题 特征 。 例 如 ,在 “李娜 产 女 ”的 话题 中 “中 国 ”、 
“冠军 ”是 与 话题 相关 性 较 低 词 汇 , 经 过 计算 , 本文 方 
法 减少 了 无 关 词 汇 影响 , 同时 提升 李娜"、“ 女 儿 ” 
等 词汇 的 权重 , 更 好 地 反映 话题 内 容 。 

观点 词 抽取 反映 出 用 户 对 话题 内 容 的 观点 意见 ， 
展示 事件 发 展 过 程 中 对 话题 中 不 同 主题 的 态度 。 例 如 


女 司机 借口 去 做 慈善 而 违章 变 道 , 则 该 主题 事件 中 的 
观点 是 “[ 笑 cry]” 表达 反讽 与 不 相信 。 

本 文 的 “主题 + 观点 ” 词 条 能 够 较 好 地 反映 话题 信 
息 ， 基 本 覆盖 话题 中 各 主题 事件 内 容 , 从 主题 内 容 信 
息 与 主题 观点 两 个 维度 表征 话题 。 例 如 “长 江 沉船 沉 
没事 件 中 , 自动 抽取 词 条 “长 江 客船 + 平安 " “长 江 客 
轮 + 倾 覆 ” 虽然 主题 词汇 链 相同 , 但 属于 微 博 话题 中 
不 同 讨论 的 内 容 ,前 者 为 客船 祈福 , 后 者 是 话题 事件 
的 描述 报道 。 
4.3 ”对 比 实验 

对 本 文 方法 同 新 浪 微 博 话题 标签 与 文献 L12] 提 出 
的 方法 进行 比较 。 新 浪 微 博 话 题 标 签 一 般 由 人 工 编辑 ， 
作为 对 微 博 话题 事件 的 概述 。 文 献 [12] 抽 取 每 个 主题 
的 种 子 词 ,迭代 产生 关键 短语 集合 ,， 最 后 泛 化 选择 话 
题 标签 ,描述 话题 信息 。 结 果 如 表 2 所 示 : 


表 2 对 比 实验 结 


事件 名 称 新 浪 微 博 话题 标签 文献 [12] 话 题 标签 “主题 + 观点 " 词 条 
尼泊尔 地 震 dam 
尼泊尔 地 震 泊 尔 8.1 级 地 震 救援 爱 K 失 
己 泊 尔 地 震 尼泊尔 8.1 级 地 震 救援 队 搜救 + 救援 
J- 中 国 游客 回国 +[ 心 ] 
_ 本 本 李娜 产 女 + 祝福 
太 妊 了 太刀 \ 布 孩 本 
李娜 产 女 李娜 产 女 李娜 公布 孩子 ee 
WT 成 都 女 司机 女 司 机 成 都 狂 殴 女 司机 变 道 + 殴打 
成 都 司机 被 打 恋 道 遭 殴 打 女 司机 驾驶 女 司机 惨遭 + 暴打 
Pe 长 江 客轮 沉没 全 国人 民 长 江 客 船 + 平 安 
人 长 江 客轮 倾覆 长 江 客轮 长 江 客轮 + 倾覆 


从 对 比 结果 可 以 看 出 本 文 方法 能 够 准确 抽取 表达 
出 话题 内 容 及 观点 。 例 如 “尼泊尔 地 震 ” 话 题 中 ,由 于 
话题 事件 爆发 突然 , 事件 讨论 相对 集中 , 用 户 观点 基 
本 一 致 。 新 浪 微 博 简单 表述 为 "尼泊尔 8.1 级 地 震 ” 缺 
少 对 话题 中 各 主题 事件 的 多 维度 表达 , 文献 [12] 的 话 
题 标签 只 是 单纯 描述 出 话题 事件 内 容 , 如 “尼泊尔 地 
震 ”“ 西 藏 地 震 ”， 而 本 文 对 话题 语 料 抽 取出 “中 国 游客 
回国 +[ 心 ] “西藏 受灾 + 捐赠 ?等 , 在 表述 主题 信息 同 
时 ,反映 用 户 相应 主题 观点 。 

与 文献 [12] 话 题 标签 抽取 方法 相 比 ， 本 文 在 反映 
主题 内 容 信 息 同时 , 也 反映 出 事件 相应 观点 倾向 ， 以 


便于 用 户 了 解 话题 全 貌 ,例如 , 尼泊尔 地 震 事 件 中 , 虽 
然 两 种 方法 都 抽取 出 “尼泊尔 地 震 ”, 但 本 文 方法 在 表 
述 话题 事件 的 同时 也 反映 出 提 及 地 震 事件 的 微 博大 部 
分 是 为 地 震 灾区 祈祷 ,展现 用 户 表达 的 观点 。 同 时 在 
“尼泊尔 地 震 ? 事 件 中 , 本 文 方 法 还 抽取 出 在 被 困 中 国 
游客 回国 的 事件 ,而 文献 [12] 方 法 并 没有 挖 据 出 相关 

在 部 分 话题 语义 表达 中 , 本 文 方 法 不 如 新 浪 微 博 
话题 标签 , 例如 新 浪 微 博 话题 标签 为 “成 都 女 司机 变 
道 遭 殴打 ” 本文 抽取 的 词 条 为 “ 女 司 机 变 道 + 磺 打 ” 
与 之 相 比 信息 完整 性 与 语义 通顺 性 都 有 所 欠缺 。 同 时 ， 
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由 于 用 户 在 发 表 的 微 博 中 , 越 来 越 多 使 用 表情 图 标 代 
替 文 本 以 表达 观点 , 但 包含 微 博 表情 的 微 博 往往 无 明 
显 句法 结构 ,因此 包含 微 博 表情 的 词 条 在 对 话题 信息 
解释 性 方面 受到 影响 。 

本 文采 用 准确 率 P、 召 回 率 R 和 Fl 对 比 文献 [12] 
与 本 文 方法 抽取 的 效果 , 计算 公式 如 下 : 


C 


P = Correct (1 1) 
Cextract 

R= Ceorrect (12) 
Cstandard 

ia (13) 
P+R 


其 中 ，Cooou 为 正确 抽取 结果 数目 ，Cowow 为 所 

有 抽取 结果 ,而 Cssd 为 所 有 人 工 标注 词 条 数目 ， 结 
果 如 表 3 所 示 : 

表 3 实验 精度 评测 结果 


准确 率 P 召回 率 R Fl 
事件 名 称 。 本 文 话题 ”本文 ”话题 本 文 ”话题 
方法 ”标签 ”方法 标签 ”方法 标签 
李娜 产 女 78.7% 74.6% 73.3% 69.6% 75.9% 72.1% 
成 都 司机 被 打 75.3% 68.7% 71.7% 66.2% 73.4% 67.4% 
尼泊尔 地 震 85.1% 84.1% 78.3% 76.4% 81.6% 80.1% 
长 江 客 轮 沉 没 80.3% 78.9% 76.7% 77.8% 78.4% 78.3% 


从 表 3 中 可 以 看 出 , 本 文 方法 精度 高 于 文献 [12] 
方法 , 在 “成 都 司机 被 打 ” 的 事件 中 , 话题 讨论 多 为 网 
民 自 发 参与 , 事件 持续 时 间 较 长 , 伴随 着 事件 的 演化 
与 发 展 , 用 户 在 不 同 阶段 情感 发 生 转 变 , 文献 [12] 话 
题 标 签 由 于 缺少 观点 维度 表达 , 仪 描 述 话题 内 容 ， 因 
此 准确 率 、 召 回 率 低 于 本 文 方法 。 在 “李娜 产 女 ”的 微 
博 中 存在 大 量 “ 大 满 贯 ”中 国 网 球 ” 等 无 关 背 景 词 , 在 
一 定 程度 上 干扰 话题 信息 , 本 文 方法 有 效 降 低 了 背景 
词 对 事件 抽取 的 影响 ,因此 准确 率 更 高 。 同 时 在 “ 尼 泊 
尔 地 震 ” 与 “长 江 客轮 沉没 ”的 事件 中 由 于 话题 中 微 博 
多 为 新 闻 报道 类 微 博 , 具有 通用 格式 , 微 博 内 容 具 有 
较 高 语义 相似 性 ， 因 此 两 种 方法 精度 相近 。 

本 文 与 文献 [12] 方 法 均 采用 LDA 模型 主题 建 模 ， 
但 模型 建 模 结 果 中 存在 部 分 主题 语义 表达 不 明确 和 
摊 杂 大 量 垃圾 微 博信 息 的 问题 , 如 大 量 简单 动词 如 
“ 走 ”"“ 吃 “去 ”"“ 爱 "在 同一 个 话题 结果 中 ,并 不 
具备 表达 话题 语义 的 能 力 , 影响 反映 话题 事件 主要 


信息 。 
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S 总 结 与 展望 


本 文 提 出 一 种 面向 微 博 话题 的 “主题 + 观点 ” 词 条 
模型 及 其 无 监督 抽取 算法 , 该 算法 采用 LDA 建 模 , 对 
词汇 权重 计算 后 , 构建 特征 词 集合 ; 根据 特征 词 间 相 
关 性 ,自动 抽取 出 主题 词汇 链 ， 表述 主题 内 容 信 息 ; 
引入 情感 词典 , 得 到 主题 观点 , 将 主题 词汇 链 与 主题 
观点 构建 成 主题 + 观点 ” 词 条 ,从 内 容 与 观点 两 个 维 
度 表 征 微 博 话 题 信息 。 最 后 通过 实验 数据 验证 “主题 + 
观点 ” 词 条 在 话题 信息 抽取 与 表达 方面 的 实用 性 以 及 
其 无 监督 抽取 算法 的 有 效 性 ,后 续 工作 包括 进一步 准 
确 抽取 话题 观点 以 及 改进 主题 模型 ,提升 主题 抽取 


效果 。 


[1] 中国 互 联网 络 信息 中 心 . 第 36 次 中 国 互联 网 络 发 展 状况 统 
计 报 告 [R/OL]. http:/www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/ 
201507/P020150723549500667087.pdf. (China Internet Network 
Information Center. The 36th Statistical Report on the 


Network Development of China Internet [R/OL]. http:/www. 
cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P02015072354 
9500667087.pdf.) 

[2] 艾 瑞 咨询 . 2014 年 中 国 微 博 用 户 行为 研究 报告 [R/OL]. 
http://www.iresearch.com.cn/report/2183.html. (iResearch. The 
2014 Research on China Weibo User Behavioral Report 
[R/OL]. http://www.iresearch.com.cn/report/2183.html.) 

[3] ” 洪 宇 ， 张 宇 , 刘 挺 ， 等 . 话题 检测 与 跟踪 的 评测 及 研究 综 
述 [ 刀 . 中 文 信息 学 报 , 2007, 21(6): 71-87. (Hong Yu, Zhang 


Yu, Liu Ting, et al. Topic Detection and Tracking Review [J]. 
Journal of Chinese Information Processing, 2007, 21(6): 
71-87.) 

[4] Becker H, Naaman M, Gravano L. Beyond Trending Topics: 
Real-World Event Identification on Twitter[C]. In: 
Proceedings of the Sth International Conference on Weblogs 
and Social Media, Barcelona, Catalonia, Spain. AAAI Press, 
2011. 

[5] Popescu A M, Etzioni O. Extracting Product Features and 
Opinions from Reviews[A]. // Natural Language Processing 
and Text Mining[M]. Springer London, 2007. 

[6] Ritter A, Mausam, Etzioni O, et al. Open Domain Event 
Extraction from Twitter[C]. In: Proceedings of the 18th ACM 
SIGKDD International Conference on Knowledge Discovery 
and Data Mining. ACM, 2012. 

[7] Blei D M, Ng A Y, Jordan M I, et al. Latent Dirichlet 


201711.02055v1 


chinaXiv 


[8] 


[9] 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


Allocation [J]. Journal of Machine Learning Research, 2003， 
3: 993-1022. 

Lin C H, He Y L. Joint Sentiment/Topic Model for Sentiment 
Analysis [C]. In: Proceeding of the 18th ACM Conference on 
Information and Knowledge Management. New York: ACML， 
2009: 375-384. 

唐 晓 波 , 向 坤 . 基于 LDA 模型 和 微 博 热 度 的 热点 挖掘 []. 
图 书 情报 工作 ，2014，58(5): 58-63. (Tang Xiaobo，Xiang 
Kun. Topic Mining Based on LDA Model and Popularity of 
Weibo[J]. Library and Information Service, 2014, 58(5): 
58-63.) 

Rosen-Zvi M, Griffiths T, Steyvers M, et al. The Author- 


Topic Model for Authors and Documents [Cl]. In: Proceedings 
of the 20th Conference on Uncertainty in Artificial 
Intelligence. 2012. 

张 晨 逸 ， 孙 建 伶 ， 丁 轶 群 . 基于 MB-LDA 模型 的 微 博 主 题 
挖掘 []]. 计算 机 研究 与 发 展 ，2011，48(10): 1795-1802. 
(Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic Mining for 
Microblog Based on MB-LDA Model[J]. Journal of Computer 
Research and Development, 2011, 48(10): 1795-1802.) 

完 宛 秋 ， 李 芳 . 基于 种 子 词汇 的 话题 标签 抽取 研究 [J]. 中 
文 信息 学 报 , 2013, 27(5): 114-121. (Kou Wangqiu, Li Fang. 
Topic Label Extraction Based on Seed Word[J]. Journal of 
Chinese Information Processing, 2013, 27(5): 114-121. ) 

钱 哲 怡 ， 李 芳 . 基于 关键 词 和 命名 实体 识别 的 新 闻 话 题 线 
索 抽 取 []. 计算 机 应 用 与 软件 ，2011，28(12): 168-171. 
(Qian Zheyi, Li Fang. 


Keyword and Name Entity 
Identification Based News Topic Thread Extraction[J]. 
Computer Applications and Software, 2011, 28(12): 168-171.) 
Hoffman M D, Blei D M，Bach F R. Online Learning for 
Latent Dirichlet Allocation[C]. In: Proceedings of the 24th 
Annual Conference on Neural 
Systems. 2010. 

Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A 
Model for Credit 


Multi-labeled Corpora [Cl]. In: Proceedings of the 2009 


Information Processing 


Supervised Topic Attribution in 
Conference on Empirical Methods in Natural Language 
Processing, Singapore. 2009. 

Darling W, Song F. Probabilistic Topic and Syntax Modeling 
with Part-of-Speech LDA[OL]. arXiv: 1303.2826. 

间 泽 华 . 基于 LDA 的 新 闻 线 索 抽 取 人 研究 [D]. 上 海 : 上 海 交 


[20] 


ChinaXiv 合 作 期 刊 


总 第 272/273 期 2016 年 第 7/8 期 


通 大 学 , 2012. (Yan Zehua. News Threading Based on LDA 
Model[D]. Shanghai: Shanghai Jiaotong University, 2012.) 

王 宇 阳 . 基于 本 体 进化 的 自 适 应 中 文 话题 跟踪 算法 研究 
[D]. 南京 : 南京 航空 航天 大 学 ，2013. (Wang Yuyang. 
Research on Algorithm of Adaptive Chinese Topic Tracking 


Based on Ontology Evolution [D]. Nanjing: Nanjing 


University of Aeronautics and Astronautics, 2013.) 

郭 足 秀 , 吕 学 强 , 李 卓 . 基于 突 发 词 聚 类 的 微 博 突 发 事件 
检测 方法 []. 计算 机 应 用 ，2014，34(2): 486-490. (Guo 
Yixiu, Lv Xueqiang，Li Zhuo. Burstyn Topics Detection 


Approach on Chinese Microblog Based on Burst Words 
Clustering [J]. Journal of Computer Applications, 2014, 
34(2): 486-490.) 

Kim S M, Hovy E. Determining the Sentiment of Opinions 
[C]. In: Proceedings of the 20th International Conference on 
Computational Linguistics. 2004. 

陈 建 美 . 中 文 情感 词汇 本 体 的 构建 及 其 应 用 [D]. 大 连 : 大 
连理 工大 学 ，2008. (Chen Jianmei. The Construction and 


及 


Application of Chinese Emotion Word Ontology [D]. Dalian: 
Dalian University of Technology, 2008.) 


姚 兆 旭 : 提出 研究 思路 和 研究 方案 , 进行 实验 , 论文 撰写 与 修订 ; 


马 静 : 


数据 采集 ,扩展 研究 思路 , 论文 审阅 与 修订 。 


7 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 见 期 刊 网 络 版 http://www.infotech.ac.cn。 


上 兆 旭 ， 马 静 . lda.zip. LDA 建 模 JAVA 程序 . 
k 兆 但 ， 马 静 . corpus.txt. 分词 后 的 数据 集 . 
， 马 静 . ldaresult.towords. LDA 结果 数据 . 

， 马 项. tfidfresult.xls. 特征 词 向 量 结 果 数 据 . 
， 马 静 . sentimentdictionary.sql. 情感 词 
马 静 . finalresult.xls. 结果 数据 . 


re 


KK 
C 
区 区 


各 
Wt 
C 

匠 


CE 
A 
C 

匠 


Wz 
CA 
[ea 


收 稿 日 期 : 2016-01-28 
收 修改 稿 日 期 : 2016-05-23 


XIANDAL TUSHU QINGBAO JISHU 


Extracting Topic and Opinion from Microblog Posts with New 
Algorithm 


Yao Zhaoxu Ma Jing 
(College of Economic and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China) 


Abstract: [Objective] This paper proposes an algorithm to extract topic and opinion information from the microblog 
posts automatically. [Methods] First, we used the improved TF-IDF algorithm to build the topic characteristic word 
Vector. Second, we generated lexical chain for the topics based on the relevance among words of the vector. Finally, we 
extracted the topic and opinion information with the sentiment dictionary, and then generated the “topictopinion” 
entries. [Results| We analyzed 24,598 Sina microblog posts of four trending events from June 2014 to June 2015 
retrieved by a specially designed crawler. The precision and recall rates of the proposed method were 80.3% and 
76.67%, respectively. [Limitations] The data size was small, the effect that the topic model extracted the feature about 
Weibo still required to be improved. [Conclusions] The proposed algorithm could effectively extract the “topic and 
opinion” information from micoblog posts. 


Keywords: Text mining Keyword extraction Topic model Microblog topic 


NISO 推出 新 项 目 ,为 图 书馆 电子 内 容 创 建 灵活 的 API 框架 


国家 信息 标准 组 织 (NISO) 经 过 投票 已 经 批准 了 一 个 新 的 项 目 , 该 项 目的 目标 是 增强 现代 化 图 书馆 厂商 技术 的 互 操作 性 ， 
以 改善 数字 内 容 和 电子 书 的 访问 。NISO 工作 小 组 将 基于 Queens Library 所 开发 的 一 套 API 需求 ,建立 一 个 基础 的 供 图 书馆 
使 用 的 API 组 。 这 个 API 组 将 实现 用 户 和 图 书馆 目前 的 需求 , 例如 : 更 快 的 响应 时 间 、 灵 活 的 发 现 和 交付 选项 、 更 高 的 资源 
可 利用 性 , 以 及 电子 资源 和 物理 资源 更 加 无 颖 的 集成 。 
图 书馆 服务 于 读者 时 , 应 该 给 读者 以 优秀 的 用 户 体验 , 以 及 必要 的 便利 性 。NISO 的 这 一 新 项 目 试图 将 读者 的 图 书馆 体 
验 和 现代 化 工具 ,以 及 读者 在 生活 中 习惯 使 用 的 技术 , 特别 是 移动 技术 进行 接轨 。 当 今 的 图 书馆 使 用 了 多 种 技术 , 其 中 的 一 
些 技术 甚至 依赖 过 时 的 、 缓 慢 的 通信 协议 来 服务 读者 。 通 过 建立 RESTful Web Services API 标准 ， 以 及 移动 扩展 标准 , 图 书馆 
行业 将 能 够 气 弃 很 多 陈旧 的 、 难 以 使 用 的 工具 ,帮助 图 书馆 在 满足 用 户 需 求 时 能 够 有 更 强 的 灵活 性 。 

志愿 者 工作 组 成 员 将 以 NISO 推荐 做 法 的 形式 提供 一 个 基础 框架 , 讨论 图 书馆 如 何 提供 和 获取 数据 。 这 些 图 书馆 相关 的 
通讯 和 功能 可 能 包括 : 定制 的 馆藏 浏览 、 搜 索 和 发 现 ， 用 户 认 证 ,账户 信息 的 传输 , 条 形 码 管理 , 图 书 的 借阅 和 归还 , 在 线 资 
源 的 流 媒体 化 , 以 及 其 他 利益 相关 者 的 需求 ,此 外 ,工作 组 的 工作 还 包括 , 创建 一 些 使 用 推荐 做 法 的 服务 案例 , 构建 一 个 注册 
机 制 , 帮助 支持 数据 提供 方 和 系统 供应 商 沟 通 他 们 对 基础 框架 的 支持 。 完 整 的 工作 说 明 可 在 NISO 官网 http:/wwwniso.org.) 
获取 。 
(编译 自 : http://www.niso.org/news/pr/view?item key=e18a9742103bc945868a51ale196e62b68879df6) 
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